FILTER MODE ACTIVE

#оценка веб-агентов

Найдено записей: 1

#оценка веб-агентов05.06.2025

WebChoreArena: Новый уровень тестирования AI-агентов с задачами на память и многопроцессное мышление

WebChoreArena представляет сложные задачи с памятью и рассуждениями для оценки AI-веб-агентов, выявляя серьёзные вызовы для современных моделей в отличие от простого серфинга.